327 research outputs found

    Streaming Automatic Speech Recognition with Hybrid Architectures and Deep Neural Network Models

    Full text link
    Tesis por compendio[ES] Durante la última década, los medios de comunicación han experimentado una revolución, alejándose de la televisión convencional hacia las plataformas de contenido bajo demanda. Además, esta revolución no ha cambiado solamente la manera en la que nos entretenemos, si no también la manera en la que aprendemos. En este sentido, las plataformas de contenido educativo bajo demanda también han proliferado para proporcionar recursos educativos de diversos tipos. Estas nuevas vías de distribución de contenido han llegado con nuevos requisitos para mejorar la accesibilidad, en particular las relacionadas con las dificultades de audición y las barreras lingüísticas. Aquí radica la oportunidad para el reconocimiento automático del habla (RAH) para cumplir estos requisitos, proporcionando subtitulado automático de alta calidad. Este subtitulado proporciona una base sólida para reducir esta brecha de accesibilidad, especialmente para contenido en directo o streaming. Estos sistemas de streaming deben trabajar bajo estrictas condiciones de tiempo real, proporcionando la subtitulación tan rápido como sea posible, trabajando con un contexto limitado. Sin embargo, esta limitación puede conllevar una degradación de la calidad cuando se compara con los sistemas para contenido en diferido u offline. Esta tesis propone un sistema de RAH en streaming con baja latencia, con una calidad similar a un sistema offline. Concretamente, este trabajo describe el camino seguido desde el sistema offline híbrido inicial hasta el eficiente sistema final de reconocimiento en streaming. El primer paso es la adaptación del sistema para efectuar una sola iteración de reconocimiento haciendo uso de modelos de lenguaje estado del arte basados en redes neuronales. En los sistemas basados en múltiples iteraciones estos modelos son relegados a una segunda (o posterior) iteración por su gran coste computacional. Tras adaptar el modelo de lenguaje, el modelo acústico basado en redes neuronales también tiene que adaptarse para trabajar con un contexto limitado. La integración y la adaptación de estos modelos es ampliamente descrita en esta tesis, evaluando el sistema RAH resultante, completamente adaptado para streaming, en conjuntos de datos académicos extensamente utilizados y desafiantes tareas basadas en contenidos audiovisuales reales. Como resultado, el sistema proporciona bajas tasas de error con un reducido tiempo de respuesta, comparables al sistema offline.[CA] Durant l'última dècada, els mitjans de comunicació han experimentat una revolució, allunyant-se de la televisió convencional cap a les plataformes de contingut sota demanda. A més a més, aquesta revolució no ha canviat només la manera en la que ens entretenim, si no també la manera en la que aprenem. En aquest sentit, les plataformes de contingut educatiu sota demanda també han proliferat pera proporcionar recursos educatius de diversos tipus. Aquestes noves vies de distribució de contingut han arribat amb nous requisits per a millorar l'accessibilitat, en particular les relacionades amb les dificultats d'audició i les barreres lingüístiques. Aquí radica l'oportunitat per al reconeixement automàtic de la parla (RAH) per a complir aquests requisits, proporcionant subtitulat automàtic d'alta qualitat. Aquest subtitulat proporciona una base sòlida per a reduir aquesta bretxa d'accessibilitat, especialment per a contingut en directe o streaming. Aquests sistemes han de treballar sota estrictes condicions de temps real, proporcionant la subtitulació tan ràpid com sigui possible, treballant en un context limitat. Aquesta limitació, però, pot comportar una degradació de la qualitat quan es compara amb els sistemes per a contingut en diferit o offline. Aquesta tesi proposa un sistema de RAH en streaming amb baixa latència, amb una qualitat similar a un sistema offline. Concretament, aquest treball descriu el camí seguit des del sistema offline híbrid inicial fins l'eficient sistema final de reconeixement en streaming. El primer pas és l'adaptació del sistema per a efectuar una sola iteració de reconeixement fent servir els models de llenguatge de l'estat de l'art basat en xarxes neuronals. En els sistemes basats en múltiples iteracions aquests models son relegades a una segona (o posterior) iteració pel seu gran cost computacional. Un cop el model de llenguatge s'ha adaptat, el model acústic basat en xarxes neuronals també s'ha d'adaptar per a treballar amb un context limitat. La integració i l'adaptació d'aquests models és àmpliament descrita en aquesta tesi, avaluant el sistema RAH resultant, completament adaptat per streaming, en conjunts de dades acadèmiques àmpliament utilitzades i desafiants tasques basades en continguts audiovisuals reals. Com a resultat, el sistema proporciona baixes taxes d'error amb un reduït temps de resposta, comparables al sistema offline.[EN] Over the last decade, the media have experienced a revolution, turning away from the conventional TV in favor of on-demand platforms. In addition, this media revolution not only changed the way entertainment is conceived but also how learning is conducted. Indeed, on-demand educational platforms have also proliferated and are now providing educational resources on diverse topics. These new ways to distribute content have come along with requirements to improve accessibility, particularly related to hearing difficulties and language barriers. Here is the opportunity for automatic speech recognition (ASR) to comply with these requirements by providing high-quality automatic captioning. Automatic captioning provides a sound basis for diminishing the accessibility gap, especially for live or streaming content. To this end, streaming ASR must work under strict real-time conditions, providing captions as fast as possible, and working with limited context. However, this limited context usually leads to a quality degradation as compared to the pre-recorded or offline content. This thesis is aimed at developing low-latency streaming ASR with a quality similar to offline ASR. More precisely, it describes the path followed from an initial hybrid offline system to an efficient streaming-adapted system. The first step is to perform a single recognition pass using a state-of-the-art neural network-based language model. In conventional multi-pass systems, this model is often deferred to the second or later pass due to its computational complexity. As with the language model, the neural-based acoustic model is also properly adapted to work with limited context. The adaptation and integration of these models is thoroughly described and assessed using fully-fledged streaming systems on well-known academic and challenging real-world benchmarks. In brief, it is shown that the proposed adaptation of the language and acoustic models allows the streaming-adapted system to reach the accuracy of the initial offline system with low latency.Jorge Cano, J. (2022). Streaming Automatic Speech Recognition with Hybrid Architectures and Deep Neural Network Models [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/191001Compendi

    Passive-Aggressive online learning with nonlinear embeddings

    Full text link
    [EN] Nowadays, there is an increasing demand for machine learning techniques which can deal with problems where the instances are produced as a stream or in real time. In these scenarios, online learning is able to learn a model from data that comes continuously. The adaptability, efficiency and scalability of online learning techniques have been gaining interest last years with the increasing amount of data generated every day. In this paper, we propose a novel binary classification approach based on nonlinear mapping functions under an online learning framework. The non-convex optimization problem that arises is split into three different convex problems that are solved by means of Passive-Aggressive Online Learning. We evaluate both the adaptability and generalization of our model through several experiments comparing with the state of the art techniques. We improve significantly the results in several datasets widely used previously by the online learning community. (C) 2018 Elsevier Ltd. All rights reserved.This work was developed in the framework of the PROM-ETEOII/2014/030 research project "Adaptive learning and multi modality in machine translation and text transcription", funded by the Generalitat Valenciana. The work of the first author is financed by Grant FPU14/03981, from the Spanish Ministry of Education, Culture and Sport.Jorge-Cano, J.; Paredes Palacios, R. (2018). Passive-Aggressive online learning with nonlinear embeddings. Pattern Recognition. 79:162-171. https://doi.org/10.1016/j.patcog.2018.01.019S1621717

    Clasificación de vídeos mediante Redes Neuronales Artificiales

    Full text link
    [EN] Nowadays, the research on computer vision and machine learning is in its best moment. The computational capacity and communications currently available in any device, have risen new challenges. Among them, the task of human or object recognition on images and video are impulsed by the best universities and technological companies. Concretely, human activity recognition in videos has a direct application in many environments: security systems, interaction analysis, illness identification, etc. For this reason, this project proposes a prospective study about the task of THUMOS competition on computer vision. In this task, it is required to classify videos by activity, among a set of 101 activities, belonging to 5 different kinds: Human-Human interaction, Human-Object interaction, sports, body-motion, and playing musical instruments. This thesis proposes, applied to this task for the first time, a model based on artificial neural networks that uses improved Dense Trajectories as a feature extraction technique. This thesis will analize the current state-of-the-art, and it will perform experiments in order to obtain the best model for this task, and afterwards, these experiments will be compared with the results provided by the approaches on the top ten of the THUMOS classification[ES] Actualmente, la investigación en el campo de la visión por computador y el aprendizaje automático se encuentra en su mejor momento. La capacidad de cómputo y de comunicación disponible hoy en dia en cualquier dispositivo ha despertado nuevos desafios. Entre ellos, las tareas de reconocimiento de personas o elementos dentro de imágenes o vídeos, se encuentran impulsadas por las mejores universidades y empresas tecnológicas. Concretamente, el reconocimiento de la actividad llevada a cabo por personas dentro de los vídeos, comprende una tarea que tiene aplicabilidad directa en numerosos entornos: sistemas de seguridad, análisis de la interacción, identificación de enfermedades, etc. Por ello, en este proyecto se propone un estudio prospectivo sobre la tarea planteada en la competición de visión por computador THUMOS. En esta tarea, se requiere la clasificación de vídeos por actividad, de entre un conjunto de 101 actividades, pertenecientes a 5 diferentes grupos: interacción humano-humano, interacción humanoobjeto, deportes, movimientos corporales y personas tocando diversos instrumentos. En este trabajo se plantea un modelo basado en redes neuronales artificiales, que se aplica por primera vez a esta tarea, utilizando la técnica del estado del arte improved Dense Trajectories para la extracción de características. Se analizará, además, el estado de la cuestión hasta el momento, y se llevará a cabo la experimentación con el objetivo de obtener el mejor modelo, para posteriormente comparar los resultados con los obtenidos en las aproximaciones que conforman el top-ten de la clasificación.Jorge Cano, J. (2015). Clasificación de vídeos mediante Redes Neuronales Artificiales. http://hdl.handle.net/10251/6484

    Stabbing simplices of point sets with k-flats

    Get PDF
    Let S be a set of n points inRdin general position.A set H of k-flats is called an mk-stabber of S if the relative interior of anym-simplex with vertices in S is intersected by at least one element of H. In thispaper we give lower and upper bounds on the size of mínimum mk-stabbers of point sets in Rd. We study mainly mk-stabbers in the plane and in R3Peer ReviewedPostprint (published version

    Using Graph-Based Models in a Persuasive Social Recommendation System

    Full text link
    © ACM 2015 This is the author's version of the work. It is posted here for your personal use. Not for redistribution. The definitive Version of Record was published in ACM, In Proceedings of the 30th Annual ACM Symposium on Applied Computing (pp. 189-194).http://dx.doi.org/10.1145/2695664.2695732Nowadays, social networks have an enormous impact in the society generating a lot of useful information to be employed in new social applications. In this paper, we show how we have used a graph-based model to extract and model data in order to develop a Social Recommendation System which recommends recipes in a social network.This work was partially supported by the project MINE-CO/FEDER TIN2012-365686-C03-01 of the Spanish government and by the Spanish Ministry of Education, Culture and Sports under the Program for R&D Valorisation and Joint Resources VLC/CAMPUS, as part of the Campus of International Excellence Program (Ref. SP20140788).Palanca Cámara, J.; Heras Barberá, SM.; Jorge Cano, J.; Julian Inglada, VJ. (2015). Using Graph-Based Models in a Persuasive Social Recommendation System. ACM. https://doi.org/10.1145/2695664.2695732SDesel, J., Pernici, B., Weske, M. Mining Social Networks: Uncovering Interaction Patterns in Business Processes.Business Process Management, Berlin, vol. 3080, pp. 244--260 (2004)Adomavicius, G., Tuzhilin, A.: Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions. IEEE Trans. on KDE <b>17</b>(6) (2005) 734--749X. Zhou, Y. Xu, Y. Li, A. Josang, and C. Cox, "The state-of-the-art in personalized recommender systems for social networking,"Artificial Intelligence Review, vol. 37, no. 2, pp. 119--132, 2012.Ehrig M., "Ontology Alignment: Bridging the Semantic Gap,"Springer, 2007.Euzenat, J. and Shvaiko P., "Ontology matching,"Springer, Heidelberg (DE), 2007.Bleiholder, J., Naumann, F., "Data Fusion,"ACM Computing Surveys, 41(1):1--41, 2008.Halpin, H., Thomson, H., "Special Issue on Identify, Reference and the Web,"Int. Journal on Semantic Web and Information Systems, 4(2):1--72, 2008.I. Robinson, J. Webber, and E. Eifrem,Graph Databases. O'Reilly, 2013.M. Pazzani and D. Billsus,Content-Based Recommendation Systems, ser. LNCS. Springer-Verlag, 2007, vol. 4321, pp. 325--341.J. Schafer, D. Frankowski, J. Herlocker, and S. Sen,Collaborative Filtering Recommender Systems, ser. LNCS. Springer, 2007, v. 4321, pp. 291--324.R. Burke, "Hybrid Recommender Systems: Survey and Experiments,"User Modeling and User-Adapted Interaction, vol. 12, no. 4, pp. 331--370, 2002.C. Chesñevar, A. Maguitman, and M. González,Empowering Recommendation Technologies Through Argumentation. Springer, 2009, pp. 403--422.G. Linden, J. Hong, M. Stonebraker, and M. Guzdial:, "Recommendation Algorithms, Online Privacy and More,"Comm. of the ACM, vol. 52, no. 5, 2009.Khare, Rohit and Çelik, Tantek, "Microformats: a pragmatic path to the semantic web" in15th international conference on World Wide Web, ACM, 2006, pp. 865--866.Fogués, Ricard L and Such, Jose M and et al, "BFF: A tool for eliciting tie strength and user communities in social networking services", inInformation Systems Frontiers, Springer, 2013, pp. 1--13.S. Heras, V. Botti, and V. Julián. Argument-based agreements in agent societies.Neurocomputing, doi:10.1016/j.neucom.2011.02.022, 2011

    Blocking the k-Holes of Point Sets in the Plane

    Get PDF
    Let P be a set of n points in the plane in general position. A subset H of P consisting of k elements that are the vertices of a convex polygon is called a k-hole of P, if there is no element of P in the interior of its convex hull. A set B of points in the plane blocks the k-holes of P if any k-hole of P contains at least one element of B in the interior of its convex hull. In this paper we establish upper and lower bounds on the sizes of k-hole blocking sets, with emphasis in the case k=5

    Resiliencia contable: gobierno corporativo y transparencia bancaria

    Get PDF
    The last two crises have shown two different sides of the banking system: while the financial crisis of 2008 revealed its vulnerability to excessive risk-taking policies, during the current pandemic banks are revealing courageous to mitigate the devas-tating economic effects, despite the risk that this policy entails. However, in both cases there is an underlying question of how to make the information provided by banks more transparent. In this paper we contrast the relationship between the structure of the board of directors and accounting disclosure (understood as recognition of risk through loan loss provisions) through a sample of 1,352 banks from 52 countries between 2000 and 2019. We obtain an inverse U-shaped rela-tionship with the size of the board, consistent with the idea of an optimal number of directors. Likewise, we find a positive influence of board independence, tenure, and diversity (in terms of female presence).Las dos últimas crisis (la financiera desencadenada a partir de 2008 y la actual provocada por la COVID-19) han mostrado dos facetas distintas del sistema bancario: mientras que aquella expuso su vulnerabilidad a los riesgos asumidos, esta última ha mostrado su denodado esfuerzo por atenuar los devastadores efectos económicos, a pesar del riesgo que esa política comporta. Sin embargo, en ambos casos subyace la cuestión sobre cómo fortalecer la arquitectura corporativa de los bancos para mejorar la información que proporcionan. En el presente trabajo estudiamos la relación existente entre la configuración del consejo de administración y la transparencia contable (entendida como reconocimiento del riesgo a través de la dotación a las provisiones por préstamos incobrables) de una muestra de 1.352 bancos de 52 países entre 2000 y 2019. Obtenemos una relación con el tamaño del consejo en forma de U invertida, coherente con la idea de un entorno óptimo del número de consejeros. Asimismo, encontramos un efecto positivo de la independencia, de la permanencia y de la diversidad (en términos de presencia femenina) de los consejos

    Live Streaming Speech Recognition Using Deep Bidirectional LSTM Acoustic Models and Interpolated Language Models

    Full text link
    [EN] Although Long-Short Term Memory (LSTM) networks and deep Transformers are now extensively used in offline ASR, it is unclear how best offline systems can be adapted to work with them under the streaming setup. After gaining considerable experience on this regard in recent years, in this paper we show how an optimized, low-latency streaming decoder can be built in which bidirectional LSTM acoustic models, together with general interpolated language models, can be nicely integrated with minimal performance degradation. In brief, our streaming decoder consists of a one-pass, real-time search engine relying on a limited-duration window sliding over time and a number of ad hoc acoustic and language model pruning techniques. Extensive empirical assessment is provided on truly streaming tasks derived from the well-known LibriSpeech and TED talks datasets, as well as from TV shows on a main Spanish broadcasting station.This work was supported in part by European Union's Horizon 2020 Research and Innovation Programme under Grant 761758 (X5gon), and 952215 (TAILOR) and Erasmus+ Education Program under Grant Agreement 20-226-093604-SCH, in part by MCIN/AEI/10.13039/501100011033 ERDF A way of making Europe under Grant RTI2018-094879-B-I00, and in part by Generalitat Valenciana's Research Project Classroom Activity Recognition under Grant PROMETEO/2019/111. Funding for open access charge: CRUE-Universitat Politecnica de Valencia. The associate editor coordinating the review of this manuscript and approving it for publication was Prof. Lei Xie.Jorge-Cano, J.; Giménez Pastor, A.; Silvestre Cerdà, JA.; Civera Saiz, J.; Sanchis Navarro, JA.; Juan, A. (2022). Live Streaming Speech Recognition Using Deep Bidirectional LSTM Acoustic Models and Interpolated Language Models. IEEE/ACM Transactions on Audio Speech and Language Processing. 30:148-161. https://doi.org/10.1109/TASLP.2021.3133216S1481613

    Torque de desinserción y propiedades fisico-químicas de implantes dentales grabados con ácidos fluorhídrico y nítrico: estudio experimental en perros Beagle

    Get PDF
    Objetivo: Estudiar la composición, características superficiales y respuesta al torque de desinserción de una superficie implantaria tratada inicialmente con ácido fluorhídrico y posterior pasivado con ácidos fluorhídrico y nítrico. Diseño del estudio: En una primera fase, se seleccionaron 12 implantes en los que se estudiaron las características fisico-químicas mediante mediciones de energía dispersa de rayos X (EDS), microscopio electrónico de barrido y análisis de XPS (espectrometría de fotoelectrones). Asimismo, se colocaron 24 implantes 'doce de 8 mm y doce de 10 mm de longitud-, en seis perros beagle, en los que tras un período de reposo, se procedió a la retirada de 12 implantes a las seis semanas y los 12 restantes a las doce semanas, mediante un calibrador de torque Gauge TonichiR modelo BGT150CN-S -con un rango de registro de fuerza de 0 a 150 Ncm. Resultados: El análisis de la composición química superficial mediante EDS sólo mostró la presencia de titanio en las superficies grabadas. En el análisis mediante XPS, al igual que sucede con las superficies de otros implantes dentales, aparecieron trazas de otros elementos presentes en la superficie, fundamentalmente de carbono. La morfología de la superficie tras el doble grabado con ácido, permitió observar la rugosidad creada por el ataque ácido, con una morfología bastante homogénea. Los valores de rugosidad obtenidos fueron superiores al micrómetro. Los valores medios encontrados para el torque de desinserción, a las seis semanas, fueron de 79,7 Ncm para los implantes de 8 mm de longitud y 115 Ncm para los implantes de 10 mm. A las doce semanas, estos valores incrementaron hasta 101,2 Ncm para los implantes de 8 mm y 139,7 Ncm para los implantes de 10 mm de longitud. Conclusiones: El grabado con ácido fluorhídrico y nítrico, posee características superficiales óptimas y comparables al de otras superficies. Los valores de torque de desinserción abren la posibilidad para su aplicación en clínica humana para procedimientos de carga precoz o inmediata.Objective: To study the composition, surface characteristics and response to removal torque of an implant surface subjected to hydrofluoric acid etching and posterior passivating with hydrofluoric and nitric acid. Study design: Twelve implants were initially selected and their physico-chemical characteristics were evaluated by means of energy-dispersive X-rays (EDS), scanning electron microscopy (SEM) and photoelectron spectroscopy (XPS). In addition, 24 implants ' 12 measuring 8 mm and 12 measuring 10 mm in length ' were implanted in 6 Beagle dogs. Twelve implants were removed after a recovery period of 6 weeks, followed by removal of the remaining 12 implants after 12 Medeweeks, using a torque calibrator (Gauge Tonichi® model BGT150CN-S) with a force registry range of 0-150 Ncm. Results: EDS analysis of the surface chemical composition only revealed the presence of titanium in the etched surfaces. In the same way as with the surfaces of other dental implants, XPS analysis revealed traces of other elements present in the surface, fundamentally carbon. Following dual acid etching, the surface showed the roughness resulting from acid action, with a morphology that proved to be quite homogeneous. The roughness values obtained exceeded 1 ìm. The mean removal torque values after 6 weeks were 79.7 Ncm for the 8 mm implants and 115 Ncm for the 10 mm implants. After 12 weeks, these values increased to 101.2 Ncm and 139.7 Ncm, respectively. Conclusions: Hydrofluoric and nitric acid etching affords optimum surface characteristics comparable to those of other surfaces. The recorded removal torque values raise the possibility of human clinical application for early or immediate loading procedures
    corecore